This preprint describes work in progress on LR-Sum, a new permissively-licensed dataset created with the goal of enabling further research in automatic summarization for less-resourced languages. LR-Sum contains human-written summaries for 40 languages, many of which are less-resourced. We describe our process for extracting and filtering the dataset from the Multilingual Open Text corpus (Palen-Michel et al., 2022). The source data is public domain newswire collected from from Voice of America websites, and LR-Sum is released under a Creative Commons license (CC BY 4.0), making it one of the most openly-licensed multilingual summarization datasets. We describe how we plan to use the data for modeling experiments and discuss limitations of the dataset.
translated by 谷歌翻译
我们提供了一个新的Twitter数据语料库,该数据注释了西班牙语和英语之间的代码开关和借用。该语料库包含带有代码开关,借款和命名实体的令牌级别注释的9,500条推文。该语料库与先前的代码开关情况有所不同,因为我们试图清楚地定义和注释codeswitching and Loarding和借贷之间的边界,并且在其他单语上下文中使用时,请不要将常见的“互联网说话”('lol'等)视为代码开关。结果是一个语料库,可以在一个数据集中的Twitter上进行西班牙语 - 英语借款和代码开关的研究和建模。我们提出了使用基于变压器的语言模型对该语料库的标签进行建模的基线得分。注释本身由CC by 4.0许可发布,而其适用的文本则根据Twitter服务条款分发。
translated by 谷歌翻译
我们介绍了Paranames,这是一种多语言并行名称资源,由1.18亿个名称组成,涉及400种语言。为1360万个实体提供了名称,这些实体映射到标准化实体类型(每/loc/org)。使用Wikidata作为来源,我们创建了此类类型的最大资源。我们描述了我们过滤和标准化数据以提供最佳质量的方法。PANAMES对于多语言语言处理非常有用,既可以定义名称翻译/音译的任务,又可以作为任务的补充数据,例如命名实体识别和链接。我们通过训练与英文和英语的规范名称翻译的多语言模型来展示对照群的应用。我们的资源是根据https://github.com/bltlab/paranames发布的创意共享许可证(CC By 4.0)发布的。
translated by 谷歌翻译
我们提出了多语言开放文本(MOT),这是一种新的多语言语料库,其中包含44种语言的文本,其中许多语言限制了现有的文本资源用于自然语言处理。该语料库的第一个版本包含超过280万篇新闻文章,并在2001 - 2022年之间发表了另外100万个短片段(照片标题,视频描述等),并从美国之声网站收集。我们描述了收集,过滤和处理数据的过程。原始材料在公共领域,我们的收藏品使用Creative Commons许可证(CC By 4.0)获得许可,并且用于创建该语料库的所有软件均在MIT许可证下发布。随着其他文档的发布,该语料库将定期更新。
translated by 谷歌翻译
为解决命名实体识别的未加产评估的迫切危机,我们提出了指导方针并介绍了SEQSCORE,这是一个软件包,以提高再现性。我们提出的指导方针非常简单,围绕透明度的透明度,有关块的编码和得分如何。我们证明,尽管NER评估的明显简单,评分过程中的未报告差异可能导致分数的变化,这些分数是显着的幅度和统计上显着的分数。我们描述了SEQSCORE,它解决了许多导致复制失败的问题。
translated by 谷歌翻译
强大的电力系统的长期计划需要了解不断变化的需求模式。电力需求对天气敏感。因此,引入间歇性可再生能源的供应方面变化与可变需求并列,将在网格计划过程中引入其他挑战。通过了解美国温度的空间和时间变化,可以分开需求对自然变异性和与气候变化相关的影响的需求的响应,尤其是因为尚不清楚由于前一个因素所产生的影响。通过该项目,我们旨在通过开发机器和深入学习“背面销售”模型来更好地支持电力系统的技术和政策开发过程,以重建多年需求记录并研究温度的自然变异性及其对需求的影响。
translated by 谷歌翻译
在本文中,我们研究了使用深度学习模型时的可转移性限制,用于对CT图像中肺炎感染区域的语义分割。拟议的方法采用4通道输入;基于Hounsfield量表的3个通道,以及一个表示肺部区域的通道(二进制)。我们使用了3个不同的公开可用的CT数据集。如果没有肺部面罩,深度学习模型会生成代理图像。实验结果表明,在创建共同分割模型时,应仔细使用可转移性;在大量数据中重新训练该模型多次以上会导致分割精度的降低。
translated by 谷歌翻译
受生物学最复杂的计算机的启发,大脑,神经网络构成了计算原理的深刻重新重新制定。值得注意的是,在活细胞内部的信息处理分子系统(例如信号转导级联和遗传调节网络)内,在信息处理的分子系统中也出现了类似的高维,高度相关的计算体系结构。在其他物理和化学过程中,即使表面上扮演非信息处理的角色,例如蛋白质合成,代谢或结构自组装等表面上,神经形态集体模式是否会更广泛地发现。在这里,我们检查了多组分结构自组装过程中的成核,表明可以以类似于神经网络计算的方式对高维浓度模式进行区分和分类。具体而言,我们设计了一组917个DNA瓷砖,可以以三种替代方式自组装,从而使竞争成核敏感地取决于三个结构中高分化瓷砖共定位的程度。该系统经过训练,以将18个灰度30 x 30像素图像分为三类。在150小时的退火过程中和之后,在实验上,荧光和原子力显微镜监测确定所有训练有素的图像均正确分类,而一组图像变化集探测了结果的鲁棒性。尽管与先前的生化神经网络相比缓慢,但我们的方法令人惊讶地紧凑,健壮且可扩展。这种成功表明,无处不在的物理现象(例如成核)在将高维多分量系统缩放时可能具有强大的信息处理能力。
translated by 谷歌翻译
持续学习的目标(CL)是随着时间的推移学习不同的任务。与CL相关的主要Desiderata是在旧任务上保持绩效,利用后者来改善未来任务的学习,并在培训过程中引入最小的开销(例如,不需要增长的模型或再培训)。我们建议通过固定密度的稀疏神经网络来解决这些避难所的神经启发性塑性适应(NISPA)体系结构。 NISPA形成了稳定的途径,可以从较旧的任务中保存知识。此外,NISPA使用连接重新设计来创建新的塑料路径,以重用有关新任务的现有知识。我们对EMNIST,FashionMnist,CIFAR10和CIFAR100数据集的广泛评估表明,NISPA的表现明显胜过代表性的最先进的持续学习基线,并且与盆地相比,它的可学习参数最多少了十倍。我们还认为稀疏是持续学习的重要组成部分。 NISPA代码可在https://github.com/burakgurbuz97/nispa上获得。
translated by 谷歌翻译
我们研究了Adagrad-norm的收敛速率,作为自适应随机梯度方法(SGD)的典范,其中,基于观察到的随机梯度的步骤大小变化,以最大程度地减少非凸,平稳的目标。尽管它们很受欢迎,但在这种情况下,对自适应SGD的分析滞后于非自适应方法。具体而言,所有先前的作品都依赖以下假设的某个子集:(i)统一结合的梯度规范,(ii)均匀遇到的随机梯度方差(甚至噪声支持),(iii)步骤大小和随机性之间的有条件独立性坡度。在这项工作中,我们表明Adagrad-norm表现出$ \ Mathcal {O} \ left(\ frac {\ mathrm {poly} \ log(t)} {\ sqrt {\ sqrt {t}}} \ right)的订单最佳收敛率$在$ t $迭代之后,在与最佳调整的非自适应SGD(无界梯度规范和仿射噪声方差缩放)相同的假设下进行了$,而无需任何调整参数。因此,我们确定自适应梯度方法在比以前了解的更广泛的方案中表现出最佳的融合。
translated by 谷歌翻译